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Модуль морфологического анализа 
без словаря слов русского языка 


Статья посвящена созданию программного обеспечения бессловарного морфологического анализа 
слов русского языка. В работе описан разработанный программный модуль, характеристики его 
функционирования, область и перспективы применения. 


Введение 


Морфологический анализ (МА) позволяет определить принадлежность слово- 
формы к определенной лексеме (поиск леммы) и грамматические признаки слово- 
формы — морфологическую информацию (МИ). МА является неотъемлемой частью 
систем анализа естественно-языковых текстов и интеллектуальных информационно- 
поисковых систем. 

Системы морфологического анализа (МА) со словарем обеспечивают «более 
полный анализ словоформы», но «на пространстве реальных текстов» они «часто 
дают сбои», так как «не существует полных словарей» [1]. Для компенсации этого 
недостатка для слов, отсутствующих в словаре системы МА, целесообразно исполь- 
зование МА без словаря (БМА). Результаты БМА также можно использовать для 
неточной, но быстрой оценки морфологической информации словоформы при поверх- 
ностном синтаксическом анализе. 

В ходе предшествующих работ ИПИИ в данном направлении был создан мо- 
дуль декларативного морфологического анализа (ДМА) слов русского языка [2]. Он 
в явном виде хранит парадигмы слов (около 3 млн словоформ, из которых 1,9 млн 
уникальных строк) и представляет собой совокупность средств морфологического 
анализа и синтеза. Каждая словоформа снабжена МИ. Модуль использует метод ско- 
ростного поиска строковых величин в словарях сверхбольших объёмов [3]. Нере- 
шенными проблемами этой работы является обработка слов, не представленных в 
словаре, и отсутствие подсистемы автоматизации пополнения словаря. Для их реше- 
ния необходимо создание системы БМА с функциональными возможностями мор- 
фологического анализа и синтеза, что обосновывает актуальность работы. 

Цель работы — разработка программного обеспечения бессловарного морфо- 
логического анализа слов русского языка со следующими функциональными воз- 
можностями: нахождение леммы и морфологической информации, нахождение сло- 
воформы или парадигмы для введённой строки. 
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Описание программного комплекса 


Модуль БМА имеет 2 режима функционирования: режим наполнения (РН) и 
режим функционирования (РФ). 

Для наполнения модуля используем словарную базу модуля ДМА. Это позво- 
ляет учесть при МА без словаря правила словоизменения всех слов, включенных в 
данный модуль. В режиме наполнения на вход модуля БМА последовательно по- 
даются парадигмы, представленные массивом строк (словоформы) и чисел (МИ). 
При этом выходных данных модуль БМА не имеет. 

В качестве базы данных модуля БМА используем базу парадигм псевдо- 
окончаний. Для пояснения данного термина необходимо определить несколько по- 
НЯТИЙ. 

Парадигма — множество грамматических форм слова, каждая из которых опи- 
сывается с помощью МИ, а также множество написаний слова в этих формах (сло- 
воформ). 

Псевдооснова — максимально длинная общая начальная часть словоформ па- 
радигмы. 

Псевдоокончание — это последовательность символов словоформы, из которой 
удалена псевдооснова парадигмы кроме последней буквы псевдоосновы. Тогда 
парадигма псевдоокончаний — совокупность псевдоокончаний и значений МИ всех 
грамматических форм слова. 

В силу специфики МА без словаря, в режиме функционирования многие ре- 
зультаты «на выходе» системы могут не являться словами русского языка. Поэтому 
выходные данные системы необходимо ранжировать (присваивать более вероятным 
результатам больший ранг) и выводить в порядке убывания ранга. 

Таким образом, модуль БМА имеет 4 информационных и 1 управляющий вход, 
а также 4 информационных выхода (рис. 1). 


Рисунок 1 — Схема функционирования модуля БМА 


Режим работы и функции модуля БМА в зависимости от управляющего сиг- 
нала, используемые при этом входные и генерируемые выходные сигналы приве- 
дены в табл. 1. 

В общем виде функционирование системы можно описать следующим обра- 
зом. Модуль БМА использует хранилище строк [3], и таблицу парадигм псевдоокон- 
чаний. Хранилище строк содержит инвертированные написания псевдоокончаний и 
позволяет определить идентификаторы псевдоокончаний, которые потенциально 
присущи введенной строке. Найденные идентификаторы позволяют определить но- 
мера соответствующих записей таблицы парадигм. А они, в свою очередь, исполь- 
зуются для нахождения МИ, потенциальной леммы и парадигмы слова. 
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Таблица 1 — Соотношение входных, выходных данных и функций модуля 


Входные данные БМА 
Управляющий ЕЕ Выходные данные БМА 
Режим сигнал (0) 
значе: тип данных | вы- 
описание |вход тип данных (описание) 
ние (описание) | ход 
Х! | строка У! массив строк (леммы) 
| Найти (словоформа) | У2 |массив чисел (МИ) 
лемму УЗ [массив чисел (№ парадигмы) 
У4 |массив чисел (ранг) 
Х! | строка УТ массив строк (словоформ) 
Найти (лемма) У2 |массив чисел (МИ) 
РФ . : 
парадигму УЗ |массив чисел (№ парадигмы) 
У4 |массив чисел (ранг) 
у Х! | строка УТ [массив строк (словоформ) 
Найти 
ОВО (лемма) У2 |массив чисел (МИ) 
арм Х2 [число (МИ) УЗ |массив чисел (№ парадигмы) 
р У4 |массив чисел (ранг) 
ХЗ |массив строк 
Добавить (словоформы) 
РН 4 
парадигму | Х4 |массив чисел 
(МИ) 


Важным этапом разработки модуля БМА является наполнение словарной базы. 
Наполнение словарной базы состоит в: 

— последовательном выборе парадигм из словарной базы модуля ДМА; 

— построении для каждой из них парадигмы псевдоокончаний; 

— поиске в словарной базе полученной парадигмы псевдоокончаний; 

— добавлении отсутствующих парадигм псевдоокончаний в базу данных или на- 
ращивании ранга найденной парадигмы. 

Данные операции выполняем для парадигм изменяемых слов из словарной базы 
модуля ДМА, написание которых не содержит дефиза и строка псевдоосновы кото- 
рых имеет ненулевую длину. 

Поиск в базе БМА некоторой парадигмы псевдоокончаний состоит в последо- 
вательном выборе парадигм псевдоокончаний и сравнении их с искомой парадигмой. 
При этом парадигмы псевдоокончаний считаются одинаковыми, если у них совпа- 
дает перечень грамматических форм, а формы с одинаковой МИ имеют одинаковые 
псевдоокончания. Для ускорения процедуры сравнения парадигм псевдокончаний 
они должны быть упорядочены по возрастанию значений МИ. 

Время, необходимое для проверки наличия парадигмы псевдоокончаний в базе 
модуля БМА, тем больше, чем больше парадигм она содержит. Поэтому форми- 
рование базы данных модуля БМА выполняем в 2 этапа: 1) создаем базы парадигм 
псевдоокончаний для отдельных частей речи; 2) объединяем базы парадигм псевдо- 
окончаний отдельных частей речи. 


34 «Искусственный интеллект» 272010 


Модуль морфологического анализа без словаря слов русского языка 4 Д 


Нахождение леммы можно описать так. Получаем массив идентификаторов 
псевдоокончаний. Для каждого из них находим массив номеров записей таблицы па- 
радигм. Для каждой из этих записей формируем строку леммы и запоминаем морфо- 
логическую информацию. 

Процесс нахождения парадигмы аналогичен. Парадигмы находятся только для 
тех записей таблицы парадигм, которые являются леммами. Для них находим 
парадигмы псевдоокончаний, по которым формируем массив словоформ и МИ. 


Анализ результатов функционирования модуля БМА 


Поскольку модуль БМА предназначен для использования совместно с модулем 
ДМА, нет необходимости вносить в него служебные части речи, местоимения и 
числительные, наречия. 

База данных модуля БМА заполнена парадигмами псевдоокончаний сущест- 
вительных, прилагательных и глаголов. Результирующая база включает в себя около 
19 тыс. парадигм псевдоокончаний (таблица парадигм из 680 тыс. записей, около 
32,5 тыс. различных псевдоокончаний). 

Использование модуля БМА в задаче морфологического парсинга текста' 
позволило оценить среднее время МА модулем. На множестве 166 260 слов среднее 
время анализа строки составило 0,013533 с. Для сравнения отметим, что модуль ДМА 
обрабатывает строку за 0,000378 с (на множестве 3 575 666 слов). Оценка среднего 
времени анализа строки проводилась в рамках одного выполнения программы мор- 
фологического парсинга, причём обращение к модулю БМА производилось в случае 
неудачи поиска леммы модулем ДМА (то есть выполнялось попеременное обраще- 
ние к модулям ДМА и БМА). 

Более чем 35-кратное увеличение времени анализа строки модулем БМА, 
очевидно, связано с получаемым в процессе работы модуля БМА большим коли- 
чеством повторов результатов МА (совпадают МИ и леммы) и необходимостью их 
удаления из множества выходных данных. В дальнейшем целесообразно направить 
усилия на ускорение МА модулем БМА. 

Большое количество повторов результатов МА, получаемых в процессе работы 
модуля, указывает на принадлежность псевдоокончания с заданным написанием 
большому количеству парадигм псевдоокончаний. Поскольку вошедшие в базу 
парадигмы отличаются друг от друга количеством, перечнем, написанием псевдо- 
окончаний (одного или нескольких), при нахождении парадигмы необходимо синте- 
зировать парадигмы входного слова с учётом каждой из них. Таким образом, «на 
выходе» системы получаем чрезмерно большое количество парадигм, которое при- 
менительно к задаче пополнения словаря ставит проблему выбора добавляемой в 
словарь парадигмы. 


Выводы 


В результате работы создан модуль БМА слов русского языка, который при- 
меним к обработке слов, не представленных в словаре. Так, при описанном в работе 
анализе корпуса текстов необходимость в его применении возникла в 4,5% случаев. 


' В рамках Форума «Оценка методов автоматического анализа текста: морфологические парсеры 
русского текста» (Режим доступа : ВИр://ги-еуа1.ги/). 


«Штучний 1нтелект» 22010 35 


1д. Дорохина Г.В., Трунов В.Ю., Шилова Е.В. 


Значительный рост временных затрат модуля БМА на анализ словоформы в 
сравнении с модулем ДМА указывает на необходимость его совершенствования в 
этом направлении. 

Относительно использования модуля БМА в качестве средства автоматизации 
пополнения словаря приходим к выводу о проблематичности пополнения словаря 
ДМА путём построения потенциальных парадигм одной словоформы, в силу их 
большого их количества. Более эффективным представляется анализ построенных 
модулем БМА множеств потенциальных парадигм «несловарных» слов некоторого 
текста или корпуса текстов и принятие решения о парадигмах этих слов. Эта задача 
может стать одним из направлений развития работы. 
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